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JH 要 : 谱 聚 类 算法 一 般 是 在 给 定 的 输入 图 上 进行 谱 分 解 ， 然 后 通过 后 置 处 理 ( 如 K 均值 聚 类 或 谱 旋转 ) 得 到 最 终 的 
聚 类 结果 。 此 类 方法 存在 两 个 不 足 : a) 将 图 的 构造 与 谱 分 解 割 裂 成 两 个 独立 的 阶段 ， 导 致 了 结果 的 次 优 性 ; b) 常 用 的 
基于 了 有 2 范 数 度 量 谱 特 征 向 量 的 相似 性 具有 噪声 敏感 性 。 为 了 克服 上 述 两 点 不 足 ， 提 出 基于 联合 结构 化 图 学 习 与 11 范 
数 谱 谋 入 的 鲁 棒 聚 类 算法 ( 记 为 CLRL1)。 在 该 算法 框架 下 ， 一 方面 图 的 学 习 过 程 与 聚 类 过 程 可 以 有 效 结合 起 来 进行 
协同 优化 ， 另 一 方面 1 范 数 的 使 用 可 以 很 好 地 约束 谱 特征 向 量 的 相似 性 以 提升 算法 的 鲁 棒 性 。 在 多 个 常用 数据 集 上 
进行 的 实验 结果 表明 ， 改 进 的 算法 聚 类 性 能 得 到 了 明显 的 提升 。 
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Robust clustering algorithm based on joint structured graph learning and /1-norm spectral embedding 


Tang Liwei, Zhang Jiahui, Peng Yong!, Kong Wanzeng 
(School of Computer Science & Technology, Hangzhou Dianzi University, Hangzhou 310018, China) 


Abstract: Given a fixed graph, the graph-based clustering usually performs the eigen-decomposition to obtain the spectral 
eigenvectors based on which we need to conduct post-processing steps such as Kmeans or spectral rotation to obtain the final 
clustering assignments. This paradigm may cause two limitations: a) this two-stage strategy breaks down the connection 
between the graph construction and the calculation of spectral eigenvectors; and b) the /-norm based similarity measure 
between spectral eigenvectors is usually sensitive to noise. To deal with these two limitations, this paper proposed a robust 
clustering algorithm based on joint structured graph learning and /;-norm spectral clustering, termed CLRLI. In the proposed 
framework, on one hand the graph learning process and the clustering process can be optimized together towards the optimum; 
on the other hand, the li-norm similarity measure of spectral eigenvectors is used to improve the model robustness. 
Experiments on extensive benchmark data sets show the effectiveness of the proposed algorithm. 

Key words: spectral clustering; structured graph learning; /1-norm; joint learning 


0 引言 可 以 提高 模型 的 鲁 棒 性 0。 

d ZO d — BU EE T AS F6 EA 2] RO Ga EAA 

聚 类 是 机 器 学 习 与 数据 挖掘 领域 一 类 重要 的 数据 分 析 方 ”” 聚 类 方法 ， 能 有 效 弥补 了 传统 谱 聚 类 的 缺陷 。 本 文 在 真实 数 

法 并 得 到 了 广泛 的 应 用 ， 例 如 图 像 分 割让 和 复杂 网 络 分 析 。 据 集 和 加 噪 数据 集 上 做 了 大 量 实验 ， 结 果 表 明 本 文 提 出 的 新 型 

聚 类 是 一 个 将 数据 样本 划分 为 多 个 类 艇 的 过 程 ， 其 目标 是 使 《《” 聚 类 算法 的 表现 超过 同类 算法 ， 具 有 良好 的 收敛 性 和 重 棒 性 。 

得 艇 内 样本 的 相似 度 较 高 ， 而 簇 间 样 本 的 相似 度 较 低 。 常 用 1 ”算法 的 提出 
的 聚 类 方法 有 大 均值 聚 类 已 3], 基于 图 的 谱 聚 类 方法 7 等; 一 人 


般 情 况 下 ， 两 类 方法 都 可 以 取得 较 好 的 聚 类 效果 。 聚 类 学 习 一 般 是 在 给 定 的 图 上 进行 ， 假 定 与 图 相对 应 

传统 的 谱 聚 类 方法 都 需要 经 过 两 个 阶段 ， 第 一 阶段 是 基 ”的 相似 矩阵 为 W € R ”II( 这 里 员 为 数据 点 的 个 数 )。 如 果 基 
于 样本 数据 关系 图 的 构造 ， 第 二 阶段 是 采用 优化 手段 对 图 拉 ”于 数据 样本 构造 的 图 W 质 量 不 高 ,将 直接 导致 案 类 的 效果 变 
普 拉 斯 矩阵 进行 谱 分解 以 得 到 聚 类 标志 矩阵 。 通 常 这 样 获得 。 得 不 理想 ,本文 的 目标 是 在 图 W 的 基础 上 学 习 一 个 新 的 具有 
的 聚 类 标志 和 矩阵 是 连续 的 并 且 可 能 含有 人 负 值 ， 需 要 再 通过 所 。 良好 特性 的 结构 化 图 S < RR”*”。 显 然 ，S 应 该 是 非 负 的 [321， 
均值 方法 或 者 是 谱 旋转 方法 来 进行 离散 化 已 得 


En 


mE SA 


导 到 最 终 的 聚 类 ”并且 行 和 为 1 的 。 除 此 之 外 ， 本 文 基于 如 下 的 定理 来 给 出 关 
结果 。 这 种 两 阶段 的 方式 将 图 的 构造 与 谱 分 解 制 裂 成 两 个 独 。 于 5S 的 秩 的 约束 0Y 14, 
立 的 过 程 ， 造 成 了 最 终结 果 的 次 优 性 。 因 此 ， 传 统 谱 聚 类 算 定理 1 拉 普 拉 斯 矩阵 中 零 特 征 值 的 个 数 等 于 图 关联 矩 
法 具有 以 下 两 个 缺陷 : a) 无 法 从 图 中 直接 获得 最 终 的 聚 类 结 阵 对 应 的 图 中 连通 分 量 的 个 数 。 
R, 还 需 采 用 其 他 的 聚 类 方法 以 获得 聚 类 结果 。b) WAREN 本 文 希望 S 具 有 秩 友 假定 聚 类 的 类 簇 个 数 为 ， 根 据 上 
果 依 赖 于 构造 图 的 质量 ， 对 特定 图 的 构造 方法 极其 敏感 外。 述 定理 ， 将 其 转换 为 对 应 的 拉 普 拉 斯 矩阵 的 秩 的 约束 为 


bz 范 数 是 传统 谱 育 类 算法 普遍 运用 于 度量 数据 间 相 似 度 。 rank(Ls) =n — k. X ELs = Ds - (S + S)/2, 其 中 Ds 为 对 
的 度量 指标 ， 它 具有 噪声 敏感 性 ， 一 般 情况 下 仅 适用 于 对 高 。 角 的 度 和 矩阵 ， 第 2 个 对 角 元 素 定 义 为 (Ds)ii = 55,55. SET HE 
斯 噪声 进行 建 模 。 相 比 之 下 , 握 范 数 轨 更 适合 于 稀 疏 的 大 噪声 ，“ 关联 矩阵 W ， 进 行 结构 化 图 $ 的 学 习 ， 可 以 通过 优化 如 下 的 
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目标 函数 来 实现 ,其 中 $1 表 示 和 矩阵 8 与 向 量 1 相 乘 ，S1 = LH] 
HIRIE BESTAN 1. 
E IS 一 wi, s.t. rank(Ls) — n — k. (1) 
假定 oi(Ls) 是 Ls 的 第 i 小 特征 值 ， 鉴 于 图 拉 普 拉 斯 矩阵 
有 半 正 定性 质 ， 显 然 ci(Ls) 之 0; 因此 (1) 式 可 等 价 于 


k 
i 2 i 
min _ IS- Wll2 + ? Loi (Ls). O) 


s> 
i=1 


当 正 则 化 参数 Y 足 够 大 时 ，(1) 式 中 的 约束 条 件 近 似 被 (2) 
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min> ， > (si — wi) +y b» dij Sij, 


i=1 j=1 i,j=1 


n 
s.t. sj 2 0,9 sj 1. 
i=1 


这 里 dij = |f! -flo 即 d; 是 一 个 向 量 , 其 第 7 个 元 素 为 
dij( 同 理 得 Bi 和 Wi。 对 8 进行 配方 ， 可 得 : 


(6) 


2 

iini s — (wi — 24;) Ss; 20,1121. (7 
s; 2 2 2 

该 式 实际 上 对 应 一 个 单纯 形 约 束 下 的 欧式 距离 问题 。 令 


式 中 的 第 二 项 满足 。 假 设 数据 xi e RO 对 应 的 聚 类 标志 向 量 
为 fi € R^, Wii Ky Fan 定理 04，(2) 式 可 以 写成 
min|S 一 Wll2+ 12,2, Mf — f’ ||ż, m 
s.t. S > 0,S1 = 1,F € R”**, FTF = I. 
这 里 的 F 为 聚 类 标志 矩阵， 其 第 i7 行 对 应 于 f*。 
可 以 看 到 ， 式 (3) 中 的 第 二 项 ， 对 于 聚 类 标志 向 量 f* 和 人 
相似 性 的 度量 使 用 的 是 62 范 数 。 一 般 来 说 ，t2 范 数 比 较 适合 
于 刻画 高 斯 类 误差 ， 而 且 是 噪声 敏感 的 。 这 里 本 文采 取 文 献 
[9] 中 提出 的 三 范 数 1 习 ， 来 提高 模型 的 鲁 棒 性 (5161]， 即 采用 如 
下 的 基于 白 范 数 的 谱 嵌 入 模型 : 


Nn TL . . 
min X >》 syllf fl». ^ 
F+ F=I 


min 
i=1 j=1 


构造 一 个 m2 维 度 的 向 量 卫 , 使 得 也 的 第 ((i — 1) * (n + J)) 
个 元 素 为 sij||f' 一 了 92。 最 小 化 P 的 三 范 数 会 使 最 终 得 到 的 
目标 变 得 更 加 稀疏 ， 从 而 产生 一 个 更 利于 聚 类 结果 的 了 上 。 所 
以 式 (4) 实 际 上 是 一 个 广义 的 丘 范 数 , 这 里 本 文 沿用 文献 [9] 的 
命名 。 

结合 文献 [8, 9] 的 思想 ， 本 文 提出 最 终 的 优化 算法 模型 : 


LU n 


min ||S — WI +7) ^» ^ sullf' - f’ ll2, - 
” i=1 j=1 


s.t. S > 0,81 = 1,FTF = I. 
该 目标 函数 的 正则 化 项 是 非 平 滑 的 ， 本 文 提 出 了 一 种 迭 
代 的 算法 去 求解 ， 即 交 蔡 优 化 图 关联 和 矩阵 S 与 聚 类 标志 和 矩阵 
FF， 直 至 目标 函数 收敛 为 止 。 如 图 1 所 示 ， 传 统 的 谱 聚 类 先 
构图 后 进行 谱 分 解 ， 本 文 提 出 的 CLRL1 算法 联合 进行 图 的 
构造 与 谱 分 解 ， 并 且 采 用 了 结构 化 图 学 习 与 三 范 数 普 柚 入 的 
方法 以 提高 模型 的 鲁 棒 性 。 


一 一 > 传统 庶 聚 类 算法 


| | 
Ce 


图 1 CLRLI1 算法 与 传统 谱 聚 类 算法 的 流程 对 比 
Fig. 1 Comparison ofCLRL1 and traditional spectral clustering algorithm 
2 ”模型 的 优化 
为 优化 目标 函数 式 (5)， 本文 在 固定 一 个 变量 的 情况 下 求 
解 另 一 个 变量 。 以 下 是 每 个 变量 更 新 规则 的 详细 推导 过 程 。 
a) 固定 更 新 S。 问 题 式 (5) 中 与 S 关 联 的 目标 函数 为 


一 一 一 > CLRLi 算法 


vi = wi 一 di，(7) 式 对 应 的 拉 格 朗 日 函数 为 
L£(si)— > ls; vill? n(si 1 1) — s; B. (8) 


KneRA8emR" 为 拉 格 朗 日 乘 子 。 本 文 将 si 具体 的 求 
解 算 法 总 结 在 算法 1 中 ， 具 体 的 推导 过 程 可 参见 文献 [17]。 
算法 1 固定 F 求 得 S 的 算法 

输入 : 给 定 的 向 量 vi 2 Rnt l; 

输出 : 目标 向 量 si 2 REL 

a) 计 算 g = vii Hove 11; 

b) 根 据 牛 顿 法 得 到 根 '; 

c) 对 于 每 个 t2 [|;c:， 得 到 最 优 的 s 中 9= ei 429， 。 

b) 固定 S 更 新 下 。 关 于 变量 的 拉 格 朗 日 函数 为 


LE)= $ Dsikf i fk iTroCe Fi D): (9) 


i-1j-1 
定义 S 是 S 的 重 加 权 的 图 关联 矩阵 ， 即 
- Sij 
55 = aw pp (10) 


其 对 应 的 拉 普 拉 斯 矩阵 为 L = D — S.DJ& — 48 ftt 


阵 , 第 j 行 的 对 角 元 素 是 半 六 1 5ij。 使 用 式 (9) 对 下 求 导 并 令 导数 
为 零 ， 可 以 得 到 
OL(F) c- — 
3p. "LF - FA - 0. a1) 


TR RAMEE RAHELA k 个 小 特征 值 对 
应 的 特征 向 量 所 组 成 的 矩阵 。 因 为 工 是 依赖 于 下 , 因此 需要 迭 
代 的 更 新 下 和 工 。 
本 文 将 目标 函数 (5) 的 整个 优化 过 程 总 结 在 算法 2 中 。 
算法 2 ”联合 结构 化 图 学 习 与 如 范 数 谱 典 入 的 鲁 棒 聚 类 


算法 

输入 : 数据 和 ERIX, KEDA, EMESA. 

输出 : 聚 类 标志 和 矩阵 F e 及 nxA。 

a) 初始 化 。 根 据 HeatKernel 函数 来 计算 图 关联 矩阵 
W E RX"*( 邻 域 为 5， 带 宽 参数 设置 为 数据 点 对 距离 的 平均 
值 ); 计算 对 应 的 拉 普 拉 斯 矩阵 工 ,并 对 其 进行 特征 分 解 以 初始 
WEF. 

b) 当 算法 未 收敛 时 执行 : 固定 F， 根 据 算法 1 更 新 S; 根 
据 式 (10) 计 算 s 与 ;固定 S， 根 据 式 (11) 更 新 F，; 

下 面 对 算法 优化 过 程 的 收敛 性 进行 简要 分 析 。CLRLI 模 
型 的 求解 分 为 两 部 分 ， 一 部 分 是 求解 S， 另 一 部 分 是 求解 F。 


由 于 8 是 解析 解 ， 故 只 需 证 明王 的 收敛 性 0 。 
引 理 1 对 于 任意 非 零 向 量 f, e Re",， 有 如 下 不 等 式 成 立 
Fl flg 
Il£|l2 2/f, ; S lille ZITAT (12) 


证 明 EAV -VA 20, wA 
(VI- Ry >20 => f-2/fh- f >20 => 


P nw f & 03 
Vf jm $78 = Vf zm SV Min 
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(12)。 


根据 引 理 1， 本 文 给 出 如 下 关于 算法 1 收敛 性 的 定理 。 


汤 立 伟 ， 


即 得 到 式 


定理 2 CLRLI 算法 将 在 每 次 迭代 中 单调 减 小 目标 函数 
式 (5) 第 二 项 的 值 ， 并 收敛 到 问题 的 局 部 最 优 值 。 
证 明 当 S 固 定时 ， 根 据 CLRLI 算法 的 执行 步骤 5 
以 得 到 
Fir1 = arg Qin ODDE — f? |i. (14) 
i=1 j=1 
其 中 = aea MA 
mA syllfin — ffa l sillfi — £8 
—_ 15 
2» 2]fi — £l 3 cd ali- flo ^ €? 
根据 引 理 1， 可 以 得 到 
eT i ' lfi — fjal 
- j |l. 
»» f7 ilz 2Ifi — fll: ) 
(16) 


n 


将 不 等 


n n 


: i Ifi — £213 
< si; (|£, f? ||: - - 
Š > > si;(lI£; è ||2 2/fi — tl; 


i=1 j= 


1 


式 (15) 和 (16) 两 边 相 加 ， 可 得 


n n 


X rss - tale 375 sult ~ lo. a7 


i=1 j= 


根据 不 等 式 (17)， 
敛 后 ， 式 (17) 左 右 两 边 会 达到 相等 ， 
(11)， 即 满足 KKT 条 件 。 


i=1 j= 


ECRANE. AS. aA 
JER, FOLE UE ER 
比 算法 CLRLI 的 收敛 性 即 得 到 


了 证 明 。 
3 ”实验 结果 

为 检验 所 提出 算法 的 有 效 性 ， 本 文 分 别 在 非 加 噪 和 加 噪 
的 数据 集 上 进行 了 聚 类 。 下 面 分 别 从 数据 与 实验 设置 、 实 验 
结果 与 分 析 等 方面 进行 介绍 。 为 了 评估 聚 类 的 结果 ， 本 文 利 
用 精度 (ACO), 标准 化 互信 息 (NMD 和 纯度 (Purity) 三 个 指标 来 
衡量 各 个 算法 的 表现 09。 
3.1 数据 集 与 实验 设置 

为 了 比较 算法 的 性 能 ， 选 择 在 标准 数据 集 上 进行 测试 。 


使 用 的 是 COLI20 灰 度 物体 图 片 数 据 集 ，Yeast 酵母 数据 集 ， 
Wine 葡萄 酒 化 学 成 分 数据 集 , Uspst 手写 数字 数据 集 , AR 人 
脸 数 据 集 ，Dig 手写 数字 数 ] 
COLDO 数据 集 包 含 了 1440 张 128 x 128 像 素 的 灰 度 图 


ndi. 


分 为 了 20 类 。 


片 (包含 了 20 个 不 同 物体 , 每 个 物体 每 隔 S 度 进行 


次 拍摄 )， 


Yeast 数据 集 包含 了 1484 条 预测 蛋白 质 定位 的 10 类 数 


据 样本 。 


Wine 数据 集 包 含 了 178 条 


严 的 化 学 分 析 数 据 , 每 条 数据 


样本 有 13 个 维度 ， 


Uspst 数据 集 是 Usps 数据 自 
的 大 小 ,一 共 


16 x 16 像 素 
AR 数据 


T 


A 
El 


& 2600 9K60 x 43 像 素 的 100 类 彩色 人 脸 


3 类 。 


的 子 集 ， 每 张 手写 数字 图 是 
是 10 类 手写 数字 。 


TL 


2007 张 图 片 ,一 共 是 


图 片 ， 图 像 LA TET 


视图 面 ， 不 同 的 面部 表情 ， 照 明 条 


件 和 遮挡 (太阳 眼镜 和 围巾 ) 
(14 天 )， 两 次 都 拍摄 相同 的 照片 
人 脸 图 像 数据 集 , 每 个 人 分 两 次 共 


次 拍摄 13 张 (其 中 7 


, 每 个 人 参与 两 次 拍摄 , 相隔 两 周 

Er. AR IKMF 100 个 人 的 
拍摄 了 26 人 单 
张 为 不 同 光 照 、 不 同 表情 等 条 件 ，3 张 


为 戴 眼 镜 ，3 KARE 


在 前 一 部 分 实验 中 ， 对 于 每 个 人 


的 人 脸 图 像 ， 本 文选 


FER I GE FB rb f 


6 的 14 张 ， 


成 一 个 1400 张 的 数 提 


昌 子 集 。 对 于 第 二 部 分 加 噪 实验 中 ,本文 


等 : 联合 结构 化 图 学 习 与 TESCO MI SEE XE 


ChinaXiv 合 作 期 刊 


第 38 卷 第 3 期 


使 用 所 有 的 2600 张 人 脸 图 像 作为 数据 。 
Dig 数据 集 包 含 了 1797 x 8 像素 的 0-9 手写 数字 
度 图 片 。 各 数据 集 的 样本 数 、 维 度 与 类 复数 特性 如 表 1 pula 
表 1 pi Gies 
Tab. 1 Description of the selected datasets 
数据 集 样本 数 维度 ES E 
COLI20 1440 1024 20 
Yeast 1484 1470 10 
Wine 178 13 3 
Uspst 2007 256 10 
AR 2600 2580 100 
Dig 1797 64 10 
选择 比较 的 算法 是 K-means, NMF, NCut, CLR, L1 unl, 
RMNMF09。CLR 是 一 种 图 学 习 的 聚 类 算法 ，L1_un 是 一 种 
利用 L1 范 数 图 的 聚 类 算法 。RMNMEF 是 一 种 联合 非 负 矩阵 


分 解 与 谱 聚 类 的 算法 。 对 于 聚 类 模型 CLRLI、CLR、L1_un、 
NCut、 


NMF, RMNMF 本 文 设置 近邻 数 为 5， 权 重 使 用 热 核 


函数 (HeatKernel function) 来 进行 计算 ， 其 中 带宽 参数 使 用 各 


点 对 


之 间距 离 的 平均 值 。 对 于 各 NMF 算法 ， 


基 和 矩阵 的 列 数 


设 为 聚 如 果 模 型 中 存在 自由 正则 化 参数 ， 按 照 


(1075,107*. 
行 保留 。 根 ] 


之 间 


为 0.01 


采用 


入 设置 为 一 个 小 的 值 , 在 之 后 的 每 一 
Ls 的 0 特 和 


的 0 


,105} 的 次 序 挑选 出 使 察 类 结果 最 优 的 参数 进 
SONIS], RMNME 对 正则 化 参数 入 在 0.001 —1 
的 选择 不 敏感 ， 本 文 将 RMNMEF 算法 中 的 自由 参数 设置 
。 对 于 本 文 提出 的 CLRL1 算法 以 及 CLR 算法 ， 本 文 
了 一 种 启发 式 的 方法 来 加 速 调 参 过 程 ， 先 将 正则 化 参数 
次 迭代 中 , 如 果 计 算得 到 
E 值 个 数 大 于 在 ， 就 将 入 除 以 2， 如 果 计 算得 到 Ls 
特征 值 个 数 小 于 开 ， 就 将 和 乘 2， 否 则 就 停止 迭代 ， 得 到 


最 佳 入 。 对 于 友 均 值 聚 类 和 需要 上 均值 聚 类 进行 后 处 理 的 NMF 
算法 、Ncnut 算法 ， 本 文 将 均值 聚 类 算法 重复 5 次 ， 记 录 下 


得 到 的 最 佳 结 果 。 


3.2 


据 集 上 的 所 得 到 的 结果 ， 


非 加 噪 数据 实验 结 
X 2~4 分 别 给 出 了 参与 比较 的 各 个 算法 在 选用 的 6 个 数 
其 中 最 好 的 结果 在 表格 中 以 加 粗 形 


式 表示 。 


表 2 各 算法 的 聚 类 精度 对 比 


Tab.2 Performance of different algorithms with respect to accuracy /% 


COLI20 Yeast Wine Uspst AR Dig 
Kmeans 45.28 13.68 70.22 63.03 16.15 70.78 
NMF 49.93 23.79 58.43 (062.73 35.95 64.50 
Neut 68.13 24.206 61.80 59.34 14.36 77.35 
CLR 78.47 29.72 72.47 54.46 34.59 66.33 
Ll un 72.08 30.9 72.47 68.31 26.52 70.56 
RMNMF 59.51 36.32 73.59 68.06 33.95 75.79 
CLRLI 85.21 37.53 72.47] 70.65 3737 81.74 
表 3 各 算法 的 归 一 化 互信 息 聚 类 指标 对 比 
Tab.3 Performance of different algortihms with 
respect to normalized mutual information /96 
COLI20 Yeast Wine Uspst AR Dig 
Kmeans 72.54 1.98 42.88 60.50 50.15 69.66 
NMF 70.47 6.56 33.37 60.04 65.80 66.37 
Neut 79.63 6.42 34.68 64.11 43.46 84.36 
CLR 93.53 4.43 39.48 70.87 58.92 75.71 
Ll un 90.18 3.53 39.48 78.73 55.77 85.10 
RMNMF 68.39 13.44 39.61] 60.19 61.86 67.04 
CLRLI 95.77 13.36 39.48 81.94 75.45 89.39 
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AA 各 算法 的 聚 类 纯度 表现 


Tab.4 Performance of different algorithms with respect to Purity /% 


COLI20 Yeast Wine Uspst AR Dig 

Kmeans 49.10 32.48 70.22 70.80 (17.16 73.79 
NMF 55.00 33.76 62.92 68.61 38.81 70.90 
Neut 70.14 34.37 61.80 63.73 19.30 81.30 
CLR 85.00 32.68 72.47 64.97 37.74 67.84 
Ll un 72.30 32.55 72.47 71.90 27.16 70.56 
RMNMF 60.48 41.91 73.59 72.84 35.74 75.79 
CLRLI 89.79 39.42 72.47 80.92 67.12 81.75 


可 以 看 出 ， 本 文 改 进 的 CLRL1 算法 在 所 用 的 数据 集 上 
取得 了 较 好 的 结果 ， 聚 类 效果 明显 优 于 其 他 的 算法 。 对 精度 
指标 ，CLRL1 算法 在 COLI20、Yeast、Uspst、AR、Dig 数据 
集 上 取得 了 最 优 的 结果 ， 分 别 比 次 优 算法 精度 提高 6.74%， 


1.21%，2.34%，2.58% 和 4.39%。RMNMEF 与 CLRL1 是 两 种 
不 同 的 聚 类 算法 ，RMNME 使 用 L21 范 数 度量 矩阵 分 解 的 误 
差 ， 是 一 种 联合 矩阵 分 解 与 谱 聚 类 的 算法 ， 可 以 看 成 是 特征 


学 习 与 聚 类 同时 进行 ; CLRL1 重点 在 于 联合 结构 化 图 学 习 与 
谱 聚 类 ， 二 者 侧重 点 有 所 不 同 ， 因 而 对 数据 以 及 噪声 分 布 特 


的 构造 过 程 


区 
与 聚 类 标志 矩阵 的 求解 过 程 联 合 起 来 进行 协同 优 
比 以 避免 两 阶段 模式 带 来 的 次 优 性 对 聚 类 性 能 提升 是 有 益 的 
虽然 此 实验 中 未 对 数据 集 进行 主动 加 噪 ， 但 是 数据 集 本 身 也 
存在 一 定 的 噪声 ， 能 
也 有 一 定 的 改善 。 


性 的 表现 有 所 不 同 ， 虽 然 CLRLI 在 少数 数据 集 的 某 些 指标 
上 未 取 到 最 优 结 果 ， 但 在 这 些 情况 下 二 者 实验 结果 的 差别 比 
较 微弱 , 多数 情 况 下 CLRL1 的 表现 更 优 。 1 


因此 改进 的 CLRL1 算法 相对 于 CLR 性 


图 2 给 出 了 CLRLI 模型 中 的 正则 化 参数 在 Uspst 数据 
集 上 的 敏感 性 实验 结果 。 对 该 数据 集 , 7 的 取 值 设置 在 [10,50] 
将 是 合适 的 。 


对 其 他 数据 集 , 参数 的 敏感 性 曲线 有 类 似 的 走势 。 


tyi 


图 2 在 Uspst 数据 集 上 参数 7 的 敏感 曲 


Fig.2 Sensitive curve of parameter 了 on the Uspst dataset 


XT CLRL1 算法 的 收敛 性 ， 
Uspst 两 个 数据 集 上 
可 以 看 出 ， 该 算法 


图 3 在 


€ 3 给 出 了 其 在 COLI20 和 


标 函 数值 随 运 代 次 数 增 加 的 下 降 情 况 。 
有 很 好 的 收敛 速度 。 


COLI20 和 Uspst 数据 集 上 目标 函数 的 收敛 曲线 图 


Fig.3 Convergence property of objective function value on 


COLI20 dataset and Uspst dataset 


联合 结构 化 图 学 习 与 11 范 数 谱 府 入 的 鲁 棒 聚 类 算法 


3.3 ”加 噪 数据 实验 结果 
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为 了 测试 的 CLRLI 的 鲁 棒 性 ， 本 节 的 实验 将 对 COLI20 


数据 集 做 主动 加 噪 处 理 


机 加 入 1、2 块 4X4 随机 位 置 噪 


即 在 
椒盐 噪声 ， 如 图 4 所 示 。 块 状 加 


原始 图 像 中 及 嵌入 块 状 噪声 和 


虹 后 分 别 得 到 在 原 图 像 上 随 


声 块 的 数据 集 ， 椒 盐 加 噪 分 


别 得 到 在 原 图 像 上 加 上 10%、20% 随 机 噪点 的 数据 集 ， 如 图 
4 所 示 。 此 外 ， 本 文 还 将 在 包含 


大 巾 与 眼镜 遮挡 的 AR 人 脸 


图 像 数 据 集 上 进行 实验 ， 医 


5 给 出 了 单个 人 员 分 两 次 拍摄 的 


26 张 人 脸 图 片 。 


原 数据 


随即 加 入 
Heo gt 


i 随机 加 入 两 个 


E SNL 


原 数据 


1096 Hik ij jt 


图 4 COLI20 数据 集 非 加 噪 图 和 加 噪 样 图 


20% tbt tci jt 


Fig. 4 Non-noisy and noisy sample images in COLI20 data set 


图 5 单个 人 两 次 实验 拍摄 的 26 张 人 脸 图 像 


Fig.5 Sample face images of one subject in two sessions of AR data set 
本 文 将 对 本 文 提 出 的 算法 CLRLI 与 CLR 算法 、L1_un 
算法 、RMNMEF 算法 分 别 在 四 个 人 工 加 噪 数据 集 与 加 品 AR 


数据 集 上 进行 实验 。 图 6~8 23 
COIL20 数据 集 上 的 实验 结果 ; 


上 了 三 种 算法 在 含 块 状 躁 声 的 


图 9~11 给 出 了 三 种 算法 在 随 


机 像素 置 乱 COIL20 数据 集 上 的 实验 结果 。 表 5 给 出 了 对 比 


09r 


算法 在 含 眼镜 与 围巾 遗 挡 的 完整 AR 数据 集 上 的 实验 结果 。 


| 
08| 一 一 CLR 1 
Nn 
| T 一 -一 RMNMF 
0.75 | - 一 cLRL 
9 P T 
Q erp Come NS. 


图 6 在 含 块 状 噪声 COIL20 数据 集 上 的 各 算法 聚 类 精度 


Fig.6 ACC ofalgorithms on COIL20 with block occlusion 


Sie 
m 


Tr 


图 7 在 含 块 状 噪声 COIL20 数据 集 上 的 各 算法 聚 类 互信 息 


Fig.7 NMI of algorithms on COIL20 with block occlusion 
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` — CLRL1 


图 8 在 含 块 状 噪声 COIL20 数据 集 上 的 各 算法 聚 类 纯度 
Fig.8 Purity ofalgorithms on COIL20 with block occlusion 


0.9 - 


0.85 


图 9 在 随机 像素 置 乱 COIL20 数据 集 上 的 各 算法 聚 类 精度 
Fig.9 ACC ofalgorithms on COIL20 with random pixel corruption 


一 -一 RMNMF| | 
——CLRLT | 


图 10 在 随机 像素 置 乱 COIL20 数据 集 上 的 各 算法 聚 类 互信 息 
Fig. 10 NMI of algorithms on COIL20 with random pixel corruption 


nr 


0.9 


—-—RMNMF| | 
-一 cCLRLI 


se 


me 一 一 一 一 ~ 


osf 
0 0.05 0.1 0.15 0.2 
随机 噪声 比例 


图 11 在 随机 像素 置 乱 COIL20 数据 集 上 的 各 算法 聚 类 纯度 
Fig. 11 Purity of algorithms on COIL20 with random pixel corruption 
表 5 在 含 真实 噪声 的 AR 数据 集 上 各 算法 的 聚 类 效果 


Tab.5 Performance of algorithms on AR data set with real disguises 


ACC NMI Purity 

CLR 0.1854 0.3802 0.2000 
Ll un 0.1535 0.3292 0.1600 
RMNMF 0.1992 0.4698 0.2107 
CLRLI 0.2015 0.5126 0.3777 
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从 上 述 实验 结果 ， 可 以 看 出 本 文 提 出 的 CLRLI 算法 和 鲁 
棒 性 上 明显 优 于 传统 CLR SEE.L1 un 算法 以 及 RMNME 算 
法 。 本 文 使 用 的 L1 范 数 是 广义 的 LI1 范 数 ， 即 由 加 权 的 L21 
范 数 相 加 得 到 的 。 这 使 得 LI 范 数 使 得 算法 在 面 对 噪声 时 的 
表现 更 加 鲁 棒 09,20。 对 比 CLR 与 CLRL1 的 实验 结果 ， 本 文 
认为 ， 在 随机 像素 置 乱 、 块 状 噪 声 与 真实 噪声 的 数据 集 上 ， 
使 用 61 范 数 来 度量 聚 类 标识 向 量 之 间 的 相似 性 均 可 以 提升 
模型 的 鲁 棒 性 。 对 比 LI un 与 CLRL1 的 实验 结果 ， 本 文 可 
以 得 出 联合 实现 图 的 学 习 与 聚 类 过 程 要 优 于 两 阶段 模式 的 
“ 先 构 图 再 聚 类 ”的 效果 。 


4 ”结束 语 


本 文 提 出 了 一 种 联合 结构 化 图 学 习 与 £1 范 数 谱 幅 入 的 
鲁 棒 聚 类 算法 。 一 方面 ， 该 算法 将 图 的 学 习 与 聚 类 过 程 结合 
起 来 , 在 同一 个 目标 函数 中 实现 二 者 的 协同 优化 , 避免 了 “4 
构图 再 聚 类 ”这 一 两 阶段 模式 带 来 的 次 优 性 问题 ， 另 一 方面 ， 
该 算法 使 用 了 红 范 数 来 度量 聚 类 标识 向 量 之 间 的 距离 ， 避 锡 
了 常用 的 42 范 数 度量 带 来 的 噪声 敏感 问题 。 通 过 大 量 的 实验 
(正常 数据 集 与 加 噪 数 据 集 ) 上 的 实验 结果 表明 ， 改 进 的 算法 
有 更 好 的 鲁 棒 性 ， 聚 类 效果 得 到 了 提升 。 
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